Loading...
机构名称:
¥ 1.0

安全对齐的大型语言模型 (LLM) 容易受到有害的微调攻击 (Qi 等人,2023)——微调数据集中混入一些有害数据可能会破坏 LLM 的安全对齐。现有的缓解策略包括对齐阶段解决方案 (Huang、Hu 和 Liu,2024;Rosati 等人,2024a) 和微调阶段解决方案 (Huang 等人,2024;Mukhoti 等人,2023)。然而,我们的评估表明,当选择某些特定的训练超参数时,这两类防御都会失败——微调阶段的较大学习率或大量训练周期很容易使防御失效,但这对于保证微调性能是必要的。为此,我们提出了 Antidote,这是一种后微调阶段解决方案,它与微调阶段的训练超参数无关。 Antidote 的理念是,通过删除有害参数,可以从有害行为中恢复有害模型,而不管这些有害参数在微调阶段是如何形成的。基于这一理念,我们在有害微调之后引入了一次性剪枝阶段,以删除导致有害内容生成的有害权重。尽管 Antidote 非常简单,但实证结果表明,它可以在保持下游任务准确性的同时降低有害分数。我们的项目页面位于 https://huangtiansheng.github.io/Antidote_gh_page/

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日PDF文件第1页

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日PDF文件第2页

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日PDF文件第3页

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日PDF文件第4页

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日PDF文件第5页

相关文件推荐